V2EX  ›  英汉词典
Enqueued related words: State-Value Function

Action-Value Function

释义 Definition

动作-价值函数:在强化学习中,用来表示在某个状态 s 下采取某个动作 a 后,按照某一策略继续行动时所能获得的期望累计回报(长期收益)的函数,常记为 **Q(s, a)**。最常见的是 **Qπ(s, a)**(在策略 π 下)或最优的 **Q*(s, a)**。该术语也常被简称为 Q-function

发音 Pronunciation (IPA)

/ˈækʃən ˈvæljuː ˈfʌŋkʃən/

例句 Examples

The action-value function tells you how good each action is in a state.
动作-价值函数会告诉你在某个状态下,每个动作有多“好”(带来多大长期收益)。

In Q-learning, the agent updates the action-value function using the reward and the maximum estimated future value.
在 Q-learning 中,智能体会用即时奖励以及对未来最大价值的估计来更新动作-价值函数。

词源 Etymology

该术语由三部分构成:action(动作) + value(价值/回报) + function(函数)。它并非传统语言演变而来的日常词汇,而是计算机科学与控制/决策理论中为描述“动作带来的期望回报”而形成的专业组合表达;在强化学习文献中通常以 Q(s, a) 表示,其中 Q 来自“quality(质量/好坏程度)”的历史用法(在早期文献里用来表示动作的“好坏”)。

相关词 Related Words

文学与经典著作 Literary Works

  • Reinforcement Learning: An Introduction — Richard S. Sutton & Andrew G. Barto(强化学习经典教材,系统使用并解释 action-value function / Q-function)
  • Learning from Delayed Rewards — Christopher J. C. H. Watkins(与 Q-learning 相关的早期经典研究中大量使用动作-价值函数概念)
  • Neuro-Dynamic Programming — Dimitri P. Bertsekas & John N. Tsitsiklis(以动态规划/近似方法讨论价值函数与动作-价值函数思想)
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   2093 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 987ms · UTC 14:00 · PVG 22:00 · LAX 06:00 · JFK 09:00
♥ Do have faith in what you're doing.